I. Ozkan
Spring 2025
Regresyon analizinde adımlar:
Model Formulasyonu
Model Tahmini
Model Değerlendirmeleri
Model Kullanımı
Bağımlı ve bağımsız değişken arasında [doğrusal] bir ilişki var mıdır?
Bu ilişki ne kadar güçlüdür?
Bağımlı değişkeni, bağımsız değişkenin değerleri verildiğinde ne kadar doğru tahmin edebiliriz?
…
varsayımlar Veriler ile uyumlu mu?
Verilere daha iyi uyan model hangisidir?
Her ikisini de aynı grafikte görelim
=======================================================================
Dependent variable:
---------------------------------------------------
y
(1) (2)
-----------------------------------------------------------------------
x 3.587*** 0.662**
(0.088) (0.278)
I(x2) 0.266***
(0.025)
Constant 3.333*** 9.542***
(0.536) (0.678)
-----------------------------------------------------------------------
Observations 91 91
R2 0.949 0.978
Adjusted R2 0.949 0.978
Residual Std. Error 2.202 (df = 89) 1.457 (df = 88)
F Statistic 1,665.464*** (df = 1; 89) 1,961.669*** (df = 2; 88)
=======================================================================
Note: *p<0.1; **p<0.05; ***p<0.01
Doğrusal İlişi (Linear Relationship)
Hata teriminin, \(\varepsilon\), ortalaması sıfır, \(E[\varepsilon]=0\)
Hata terimi, \(\varepsilon\), sabit varyansa sahip, \(V(\varepsilon_i)=s^2\)
Hata terimleri arasında korelasyon bulunmuyor, \(Cov(\varepsilon_i,\varepsilon_j)=0 \; for \; i \neq j\)
Hata terimi normal dağılıma sahip, \(\varepsilon \sim N(0,s^2)\) (veya gözlem sayımız çok sayılar yasasının kullanımı için yeterli)
\(\varepsilon_i=y_i-\hat y_i\)
\(\hat y_i=X \hat \beta\)
\(E[\varepsilon]=\bar
\varepsilon=\frac{1}{n}\sum_{i}\varepsilon_i=0\)
\(V[\varepsilon]=s^2=\frac{1}{n-p-1}\sum_{i}\varepsilon_i^2\)
TV | radio | newspaper | sales |
---|---|---|---|
230.1 | 37.8 | 69.2 | 22.1 |
44.5 | 39.3 | 45.1 | 10.4 |
17.2 | 45.9 | 69.3 | 9.3 |
151.5 | 41.3 | 58.5 | 18.5 |
180.8 | 10.8 | 58.4 | 12.9 |
8.7 | 48.9 | 75.0 | 7.2 |
57.5 | 32.8 | 23.5 | 11.8 |
120.2 | 19.6 | 11.6 | 13.2 |
8.6 | 2.1 | 1.0 | 4.8 |
199.8 | 2.6 | 21.2 | 10.6 |
Call:
lm(formula = sales ~ ., data = advertising)
Residuals:
Min 1Q Median 3Q Max
-8.8277 -0.8908 0.2418 1.1893 2.8292
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.938889 0.311908 9.422 <2e-16 ***
TV 0.045765 0.001395 32.809 <2e-16 ***
radio 0.188530 0.008611 21.893 <2e-16 ***
newspaper -0.001037 0.005871 -0.177 0.86
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.686 on 196 degrees of freedom
Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
Doğrusal İlişki: Görsel ipuçları (en azından bu ders için, Ramsey Regression Equation Specification Error Test, RESET, kullanılabilir)
Hata teriminin, \(\varepsilon\), ortalaması sıfır, \(E[\varepsilon]=0\)
\(E[\varepsilon]=\bar \varepsilon=\frac{1}{n}\sum_{i}\varepsilon_i=0\)
Daha Fazla Bilgi için tıklayınız
Teşhis için, hata terimlerinin tahmin edilmiş değerler (fitted values) veya bağımsız değişkenler ile skater grafiğine bakarak görsel ipuçları bulunabilir (önerilmiş bir çok test de mevcuttur, örneğin aşağıda verilen Breusch-Pagan testi gibi, \(H_0: Sabit \; varyans\))
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 5.355982, Df = 1, p = 0.020651
İçerilmemiş bağımsız değişkenler (Omitted variables) parametrelerin ve standart hataların yanlı tahminine yol açabilir
Bağımsızlığın İstatistiksel testleri ve görsel testleri genellikle yetersizdir
Hata terimi normal dağılıma sahip, \(\varepsilon \sim N(0,s^2)\) (veya gözlem sayımız çok sayılar yasasının kullanımı için yeterli)
Hata terimlerinin varyansını, tahmin edilen değerlere ve her bir bağımsız değişkene karşı çizebiliriz
Veri toplama, örneklem seçimi, tekrarlanan ölçümler, mekansal/zamansal gözlemler vb. bu gibi durumlarda önemli sorulardır
Standartlaştırılmış hata terimleri
(rstandard()
) kullanılarak shapiro testi
gerçekleştirilebilir (shapiro.test()
)
Standartlaştırılmış hata terimleri, \(z_i=\frac{\varepsilon_i}{\sqrt{MSE}}, \; z_i \sim N(0,1)\)
Shapiro-Wilk normality test
data: rstandard(lm1)
W = 0.91662, p-value = 3.312e-09
Q-Q Plot
Bu modelin standartlaştırılmış hata terimlerinin çarpıklığı -1.332’dir
Normal dağılıma sahip simüle edilmiş rastgele bir değişken için Q-Q grafiği ve Sahapiro testi
Shapiro-Wilk testi
Shapiro-Wilk normality test
data: x
W = 0.9995, p-value = 0.9086
Sağa Çarpık (Positively Skewed)
Sola Çarpık (Negatively Skewed)
Şişman Kuyruk (Fat Tails) (Örnek, 4 serbestlik derecesine sahip t-dağılımı)
İki Tepeli (2 peaks)
Üç Tepeli (3 peaks)
Çarpık
GLM modeli kurgulayabiliriz (bu dersin parçası değil)
Bağımlı değişkeni dönüştürebiliriz (Transform)
Çoklu Tepeler
İçerilmemiş kategorik değişkenler kontrol edilebilir
Şişman Kuyruk
Bağımlı değişkeni dönüştürebiliriz
Bir bağımsız değişkenin açıklayıcı içeriği diğer değişken(ler) tarafından yüksek oranda açıklanamamalı
Çoklu bağlantı standart hataların yükselmesine neden olur
Varyans Artırıcı Faktör, Variance Inflation Factor (VIF) bu durumun teşhisi için kullanılabilir (VIF değeri birçok model için 4 veya 5 değerindne küçük olmalı)
Bu bağımsız değişkenler birleştirilebilir (factors), bazıları modelde içerilmeyebilir
\(y_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + \varepsilon_i\) olduğunda ve \(x_{1i} \; ve \; x_{2i}\) arasındaki korelasyon yüksek olduğunda \(\beta_1\) tahmini yüksek varyansa sahip olur
\(\sigma^2_{\hat\beta_1} = \frac{1}{n} \left( \frac{1}{1-\rho^2_{X_1,X_2}} \right) \frac{\sigma^2_\varepsilon}{\sigma^2_{X_1}}\)
Yüksek korelasyonun bu etkisini görmek için, değişkenler arasındaki korelasyonların 0,25 ve 0,85 olduğu iki simülasyon örneğine bakalım:
1-
\[x_i = (x_{1i}, x_{2i}) \overset{i.i.d.}{\sim} \mathcal{N} \left[\begin{pmatrix} 0 \\ 0 \end{pmatrix}, \begin{pmatrix} 10 & 2.5 \\ 2.5 & 10 \end{pmatrix} \right]\]
\[\rho_{X_1,X_2} = \frac{Cov(X_1,X_2)}{\sqrt{Var(X_1)}\sqrt{Var{(X_2)}}} = \frac{2.5}{10} = 0.25\]
Simüle edilmiş veriler ile tahmin edilen \(\hat{\beta_i}\) için elde edilen Covaryans Matrisi ve ortak yoğunluk tahminleri:
hat_beta_1 hat_beta_2
0.05674375 0.05712459
2-
\[x_i = (x_{1i}, x_{2i}) \overset{i.i.d.}{\sim} \mathcal{N} \left[\begin{pmatrix} 0 \\ 0 \end{pmatrix}, \begin{pmatrix} 10 & 8.5 \\ 8.5 & 10 \end{pmatrix} \right]\]
\[\rho_{X_1,X_2} = \frac{Cov(X_1,X_2)}{\sqrt{Var(X_1)}\sqrt{Var{(X_2)}}} = \frac{8.5}{10} = 0.85\]
hat_beta_1 hat_beta_2
0.1904949 0.1909056
VIF (Variance Inflation Factors)
\(VIF_j=\frac{1}{1-R_{j}^{2}}\)
burada \(R_{j}^{2}\), bir bağımsız değişkenin, \(j.\), bağımlı olarak kullanılarak diğer tüm bağımsız değişkenler ile doğrusal olarak modelleinesi ile elde edilen değeri ifade etmektedir
\(VIF_j=1\) korelasyon olmayan ve \(VIF_j \to \infty\) ise mükemmel korelasyona sahip açıklayıcılar anlamına gelmektedir
Advertising Veri Örneği:
Sıçrayan gözlemlerin tahmin edilen değerler ve/veya model parametre tahminleri üzerinde çok büyük bir etkisi olabilir.
Bunları üç ayrı türe ayırabiliriz:
Uç değerler
Bu değerler yüksek artık (hata değerleri) ile tanımlanabilir
Opsiyonel: Studentized Residuals
\(MSE\), \(\varepsilon_i\) değerlerinin yaklaşık ölçümüdür. Bu değer ölçeklendirilerek iyileştirilebilir,
\(V(\varepsilon_i)=\sigma^2(1-h_i)\)
\(h_i\), hat matrisinin köşegenindeki, \(H=X(X^TX)^{-1}X^T\), \(i.\) elamandır,
Studentized residual, \(r_i=\frac{\varepsilon_i}{\sqrt{MSE(1-h_i)}}\)
\(r_i \sim t-dağılımına\) sahip ve serbestlik derecesi \(n-p-1\)’dir. \([-3, 3]\) değerlerinin dışında kalan değerler potansiyel sıçrayan gözlem olarak düşünelebilir
Örnek Advertising verisi modelinde, potansiyel sıçrayan gözlemler
TV | radio | newspaper | sales | yhat | res_sqrt | res | res_stud |
---|---|---|---|---|---|---|---|
8.7 | 48.9 | 75.0 | 7.2 | 12.478 | 1.791 | -5.278 | -3.288 |
262.9 | 3.5 | 19.5 | 12.0 | 15.610 | 1.472 | -3.610 | -2.189 |
290.7 | 4.1 | 8.5 | 12.8 | 17.007 | 1.592 | -4.207 | -2.571 |
5.4 | 29.9 | 9.4 | 5.3 | 8.813 | 1.454 | -3.513 | -2.132 |
7.8 | 38.9 | 50.6 | 6.6 | 10.577 | 1.547 | -3.977 | -2.422 |
0.7 | 39.6 | 8.7 | 1.6 | 10.428 | 2.310 | -8.828 | -5.758 |
276.7 | 2.3 | 23.7 | 11.8 | 16.011 | 1.592 | -4.211 | -2.570 |
Kaldıraç
Bir tahmin edicinin kendi değerleri ile tahmin edicinin diğer değerleri arasındaki mesafenin bir ölçüsüdür
Yüksek kaldıraçlı noktalar model tahminlerimizi etkileme potansiyeline sahiptir
Değerler 0 ile 1 arasında değişir ve \(Leverage_i > \frac {2k} {n}\) büyük değer olarak kabul edilebilir* (k parametre sayısı, n örneklem büyüklüğü)
*: Belsley, D. A., Kuh, E., and Welsch, R. E. (1980). Regression Diagnostics: Identifying influential data and sources of collinearity. Wiley. https://doi.org/10.1002/0471725153
Advertising verisi modeli yaklaşık olarak \(Leverage_i > \frac {2k} {n}=0.04\) eşik değerine sahiptir
Gözlemleri gösteren tablo:
sales | yhat | res_sqrt | res_stud | lev |
---|---|---|---|---|
7.2 | 12.478 | 1.791 | -3.288 | 0.047 |
12.5 | 12.824 | 0.448 | -0.200 | 0.086 |
25.4 | 23.406 | 1.099 | 1.209 | 0.040 |
8.7 | 11.858 | 1.389 | -1.943 | 0.057 |
23.8 | 23.242 | 0.586 | 0.342 | 0.070 |
24.7 | 22.255 | 1.218 | 1.488 | 0.044 |
11.9 | 14.224 | 1.195 | -1.433 | 0.069 |
Etki
Kaldıraç ve uç değerler soyut ölçümlerdir
Bir gözlemin modeldeki yüksek etkisi, Etki, daha önemlidir
Etki, bir gözlemin model tahminlerimizi ne kadar etkilediğinin bir ölçüsüdür
Yaygın olarak kullanılan Etki Ölçüleri:
Cook’s uzaklığı (Cook’s Distance)
DFFITS: Belirli bir gözlemin modelden silinmesi durumunda tahminin ne kadar değişeceğinin standartlaştırılmış ölçüsü
\(DFFITS_i = r_i \times \sqrt{ \frac { h_i } { 1 - h_i } }\)
\(r_i\) studentized residual ve \(h_i\) ise kaldıraçtır
Eşik değeri, \(|DFFITS_i| > 2 \times \sqrt{ \frac {k} {n} }\), ve toplam parametre sayısı \(k\)’dır
dffits()
function can be used
Bunlardan on gözlemi içeren tablo
sales | yhat | res_sqrt | res_stud_large | lev_large | dffits |
---|---|---|---|---|---|
9.3 | 12.308 | 1.349 | 0 | 0 | -0.370 |
7.2 | 12.478 | 1.791 | 1 | 1 | -0.734 |
12.0 | 15.610 | 1.472 | 1 | 0 | -0.344 |
12.8 | 17.007 | 1.592 | 1 | 0 | -0.459 |
8.7 | 11.858 | 1.389 | 0 | 1 | -0.478 |
5.3 | 8.813 | 1.454 | 1 | 0 | -0.353 |
6.6 | 10.577 | 1.547 | 1 | 0 | -0.403 |
24.7 | 22.255 | 1.218 | 0 | 1 | 0.318 |
1.6 | 10.428 | 2.310 | 1 | 0 | -1.127 |
12.7 | 15.578 | 1.317 | 0 | 0 | -0.311 |
DFBETAS: modeldeki regresyon katsayıları ile bir gözlemei çıkarıp elde ettiğimiz modeldeki katsayıları arasındaki standartlaştırılmış farkları ifade etmektedir
DFBETAS, katsayının standart hatası ile standartlaştırılır. Bu durumda bir model, gözlemlerin ve tahmincilerin her bir kombinasyonu için bir tane olmak üzere \(n \times k \times DFBETAS\) değerine sahiptir
Eşik değeri: \(|DFBETAS_i| > \frac {2} {\sqrt{n}}\)
Bunlardan on gözlemi içeren tablo
sales | yhat | res_sqrt | res_stud_large | lev_large | dffits_large | dfb_(Intercept) | dfb_TV | dfb_radio | dfb_newspaper |
---|---|---|---|---|---|---|---|---|---|
9.3 | 12.308 | 1.349 | 0 | 0 | 1 | -0.002 | 0.219 | -0.135 | -0.184 |
7.2 | 12.478 | 1.791 | 1 | 1 | 1 | 0.025 | 0.423 | -0.272 | -0.382 |
8.7 | 11.858 | 1.389 | 0 | 1 | 1 | 0.033 | 0.240 | -0.073 | -0.345 |
5.3 | 8.813 | 1.454 | 1 | 0 | 1 | -0.234 | 0.250 | -0.139 | 0.175 |
1.6 | 10.428 | 2.310 | 1 | 0 | 1 | -0.533 | 0.711 | -0.673 | 0.591 |
5.7 | 8.449 | 1.287 | 0 | 0 | 1 | -0.204 | 0.188 | -0.100 | 0.171 |